arxiv：2312.00198V2 [CS.LG] 2024年6月17日__

arxiv：2312.00198V2 [CS.LG] 2024年6月17日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2312.00198V2 [CS.LG] 2024年6月17日

¥ 1.0

热度

为了确保在实际系统中加固学习的有用性（RL），确保它们对噪声和对抗性攻击至关重要。在对抗RL中，外部攻击者有能力操纵受害者与环境的互动。我们研究了整个在线操纵攻击，其中包括（i）国家攻击，（ii）观察攻击（这是对状态的概括），（iii）行动攻击和（iv）奖励攻击。我们表明了攻击者设计的隐形攻击问题，该攻击最大化了其自身的预期奖励，通常与最小化受害者的价值相对应，这是由马尔可夫·德克尼（Markov DeSision）过程（MDP）捕获的，我们称之为元MDP，因为它不是真实的环境，而是通过攻击互动所带来的更高级别的环境。我们表明，攻击者可以通过在多项式时间进行计划或使用Standard RL技术进行多项式样本复杂性来得出最佳攻击。我们认为，可以将受害者的最佳防御政策计算为对Stochastic Stackelberg游戏的解决方案，可以将其进一步简化为基于部分的基于转弯的随机游戏（POTBSG）。攻击者和受害者都不会从各自的最佳政策中受益，因此这种解决方案确实很健壮。尽管防御问题是NP-HARD，但我们表明在许多情况下，可以在多项式时间（样本复杂性）中计算（学习）最佳的马尔可夫防御。

添加pdf代下载 VIP点击下载文件